- Microsoft werkt aan een toepassing die met behulp van kunstmatige intelligentie teksten kan omzetten naar gesproken taal.
- De tool, genaamd VALL-E, kan iemands stem op basis van een audiofragment van 3 seconden nabootsen en er ook andere woorden mee vormen.
- De aankondiging valt samen met Microsofts plan om 10 miljard dollar in OpenAI, de maker van chatbot ChatGPT, te investeren.
- Lees ook: ChatGPT is net als andere software op basis van artificial intelligence kwetsbaar voor vooroordelen: discriminatie en racisme liggen op de loer
Microsoft, dat van plan is om 10 miljard dollar te investeren in OpenAI, de maker van de chatbot ChatGPT, werkt ondertussen ook aan een eigen AI-tool. Het noemt dit VALL-E en het kan volgens de makers iemands stem nabootsen op basis van een audiofragment van slechts drie seconden.
VALL-E is in staat een stem te kopieren in “zero-shot scenario’s”, zeggen de ontwikkelaars ervan in een artikel waarin ze de tool introduceren. Dat betekent dat VALL-E de gekopieerde stem kan gebruiken om woorden en zinnen te vormen die het de originele stem niet eerder hoorde zeggen.
VALL-E gebruikt tekst-naar-spraak-technologie om geschreven woorden om te zetten in gesproken woorden. Het doet dit met “een hoogwaardig gepersonaliseerde” manier van spreken, aldus de ontwikkelaars.
De techneuten gebruikten opnames van meer dan 7.000 mensen uit LibriLight, een dataset van audioboeken die zijn voorgelezen door vrijwilligers. Microsoft heeft al voorbeelden vrijgegeven van hoe VALL-E zou werken, waarin wordt uitgelegd hoe de stem van een spreker wordt gekopieerd.
De AI-toepassing is momenteel niet beschikbaar voor het publiek. Ook heeft Microsoft niet kenbaar gemaakt wat het beoogde doel van de nieuwe technologie is.
De ontwikkelaars zeggen dat de resultaten tot nu toe laten zien dat VALL-E "aanzienlijk beter presteert" dan de meest geavanceerde vergelijkbare systemen. Ze hebben het dan met name over "de natuurlijkheid van de spraak en de overeenkomst met de spreker".
Maar er zijn nog wel wat obstakels. De ontwikkelaars wijzen op het gebrek aan diverse accenten en het feit dat sommige woorden in de kunstmatige spraak "onduidelijk waren, gemist werden, of dubbel werden uitgesproken".
VALL-E kan misbruikt worden, zeggen ontwikkelaars
Volgens de ontwikkelaars kleven er ook enkele risico's aan de nieuwe technologie. Zo kan VALL-E gebruikt worden voor "het vervalsen van stemidentificatie of het zich voordoen als een specifieke spreker".
"Om dergelijke risico's te beperken, is het mogelijk een detectiemodel te bouwen om te kunnen onderscheiden of een geluidsfragment met VALL-E is gemaakt", schrijven de ontwikkelaars in het artikel. Hoe ze dit zouden kunnen detecteren, werd niet duidelijk gemaakt.
Ook schreven ze dat "als het model beschikbaar wordt gesteld in de 'echte wereld', het een protocol moet bevatten om te verzekeren dat de spreker het gebruik van zijn stem goedkeurt".
Maandag kondigde Microsoft aan ChatGPT beschikbaar te maken voor zijn eigen diensten. Een week eerder kondigde de techgigant aan 10 miljard dollar te willen investeren in OpenAI, het bedrijf achter de chatbot.